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摘 SE: 在 缺乏 足够 先 验 知识 下 ， 自 适应 着 痛 发 作 期 识别 异常 困难 。 提 出 一 种 新 的 度量 通道 之 间 的 同步 特征 计算 方法 
( 聚 类 划分 互信 息 )， 以 相关 算 阵 方式 组 织 单 窗口 内 全 局 同步 特征 模式 ,进而 设计 一 种 跨 层 全 连接 神经 网 络 分 类 器 ， 对 
非 平 稳 同步 特征 模式 实现 自 适 应 分 类 。 实 验 表明 该 方法 可 获得 [98.19% 土 0.24%] 精 确 度 ，[98.27% 土 0.51%] 敏 感度 和 
[98.11% 土 0.36%] 特 异 度 ， 超 过 了 大 部 分 现 有 方法 的 分 类 性 能 。 另 外 ， 所 提出 方法 无 须 去 噪 和 去 伪 迹 等 预 处 理 过 程 ; 而 
且 其 仅 需 设置 一 个 超 参 数 〈 时 间 窗 )， 训 免 了 过 多 的 潜在 错误 参数 设置 而 导致 的 分 类 性 能 的 降低 。 
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Abstract: Under the circumstance of insufficient prior knowledge, it becomes even more important to adaptively classify the 
synchronization dynamics to accurately characterize the intrinsic nature of seizure activities represented by the EEG. This study 
first measures the global synchronization by calculating Clustering Partition Mutual Information (MI) of all EEG data channels. 
A cross layer fully connected net is then designed to adaptively characterize the synchronization dynamics captured correlation 
matrices and automatically identify the seizure states of the EEG. Experiments are performed over the CHB-MIT scalp EEG 
dataset to evaluate the proposed approach. Seizure states can be identified with an accuracy, sensitivity and specificity of [98.19% 
3: 0.2494], [98.279 37 0.5194], and [98.11% 2 0.3694], respectively; the resulted performance is superior to those of most existing 
methods over the same dataset. The approach alleviates the need for strictly denoising and artifact removing based on the EEG 
prior knowledge that is mandatory for existing methods. Only one hyper-parameter need be set manually to avoid getting worse 
performance because of complex parameter setting. 
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Z 如 Pearson 相关 系数 、Spearman 秩 相 关 和 互信 息 等 。 在 这 些 方 
0 引言 法 中 , 互信 息 是 一 种 最 重要 的 信息 独立 性 度量 外 , 且 在 辨别 以 及 
为 理解 脑 功能 与 脑 疾 病 的 内 在 机 制 ， 研 究 人 员 往 往 评估 脑 ” 抗 噪 声 能 力 上 具有 较 优 的 性 能 名。 近 几 年 , 多 变量 同步 分 析 方法 
电信 号 之 间 的 同步 模式 , 同时 刻画 不 同 脑 区 之 间 的 交互 中 ,到 目 。 有 了 长 足 发 展 , 诸如 相同 步 聚 类 分 析 (PSCA),S 估计 子 吧 和 相 
前 为 止 ， 大 量度 量 多 变量 数据 间 同 步 强度 方法 在 不 同学 科 中 有 ” 关 甜 阵 分 析 (CMA)m。 其 中 ，S 估计 子 能 有 效 度量 全 局 同步 ， 但 
了 长 足 发 展 ， 诸 如 特征 提取 握 、 复 杂 神 经 震荡 网 络 、 神 经 计算 所 ” 缺乏 对 变量 间 同 步 细 节 的 度量 ; PSCA 可 以 获取 不 同 变量 的 拓 
和 脑 疾 病 学 中 。 扑 细节 , 但 在 全 局 同步 信息 度量 方面 存在 明显 不 足 ; 而 CMA 3 
关于 脑 电 信号 同步 的 早期 研究 专注 于 双 变 量 同步 分 析 ,， 诸 BRUA Eon. 
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录用 稿 王 风琴 ,等 : 基于 跨 层 全 连接 神经 网 络 的 着 痛 发 作 期 识别 


序列 的 划分 与 互信 息 的 精确 计算 密切 相关 。 现 有 的 策略 主 。 些 过 程 强 依赖 于 病人 本 身 特性 ), 其 目的 是 为 了 使 模型 具有 更 加 
要 有 两 种 : a) 基于 事件 的 策略 ， 比 如 计算 两 个 文本 之 间 的 互信 ”健壮 (无 过 拟 合 ) 和 泛 化 的 能 力 。 同 时 无 须 对 新 来 的 病人 重新 
息 ， 往 往 基 于 文本 特定 含义 进行 划分 来 计算 自信 息 粹 和 联合 信 调整 参数 ， 致 使 模型 更 具有 临床 应 用 意义 。 

ee M HE a 1 ”相关 工作 

有 较 大 优势 ， 无 法 刻画 无 语义 连续 随机 变量 的 互信 息 ;b〉 利 

概率 分 布 对 连续 随机 变量 进行 划分 后 ， 再 计算 互信 息 。 比 如 长 期 以 来 , 对 隐藏 在 多 变量 EEG 中 的 非 平稳 模式 进行 分 类 
在 度量 两 幅 图 像 的 互信 息 时 ， 一 般 对 两 幅 图 像 的 连续 像素 值 上 ”受到 广大 科研 工作 者 的 关注 ， 特 别 是 在 探索 与 研究 诸如 疗 病 等 
进行 等 间距 划分 (假定 服从 均匀 分 布 ) 后 再 计算 自信 息 粹 和 联 ” 脑 疾 病 机 理 时 。 传 统 方法 往往 侧重 于 时 频 分 析 或 者 同步 度量 ， 
合 信息 粒 ， 进 而 计算 两 幅 图 像 的 互信 息 。 上 述 方法 不 适合 对 多 ”然而 ， 随 着 近年 来 机 器 学 习 方法 的 蓬勃 发 展 ， 出 现 了 这 一 方向 


已 
变量 脑 电 信号 进行 分 类 ， 其 主要 原因 
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A: 脑 电信 号 本 身 不 具有 的 很 多 显著 成 果 : 
语义 信息 ， 无 法 通过 特定 语义 进行 划分 ， 无 明显 证 据 表 明 多 通 在 CHB-MIT 头皮 脑 电 图 数据 集 上 ，Meyers 等 人 计算 幅度 
道 脑 电信 号 服从 某 种 特定 的 概率 分 布 。 /相位 锁定 值 获得 77% 的 灵敏 度 ,88% 的 精确 率 , 以 及 每 小 时 0.17 
瘦 病 同步 模式 往往 存在 非 线 性 、 多 样 性 和 不 确定 性 ， 难 以 RREO. FRAR EEA NA E, Lorena 等 


通过 线性 方法 识别 辣 痛 发 病状 态 ， 为 此 ， 非 线性 自 适应 模式 识 人 设计 开发 了 一 种 平稳 小 波 变换 的 通用 癖 病 发 作 期 识别 算法 ， 
别 技术 势 在 必 行 。 特 别 是 深度 学 习 技术 ， 因 为 它 具 有 非 线 性 处 ”获得 了 99.9% 的 特异 度 、87.5% 的 敏感 度 和 每 小 时 0.9 的 误 报 率 
时 能 力 、 自 适应 性 、 强 大 的 容错 能 力 。 有 关 神 经 网 络 性 能 的 一 。”[10]。Morteza 等 人 提出 了 一 种 基于 密度 的 实时 癫痫 发 作 预 测算 
个 误区 是 神经 网 络 的 层 数 越 多 ， 分 类 器 的 性 能 越 优 。Forrest 提 ” ” 法 , 获得 86.53% 的 准确 率 、97.27% 的 召回 率 以 及 每 小 时 0.00215 
出 的 SqueenzeNet 具有 较 少 的 隐 含 层 和 较 少 的 模型 参数 ， 却 获 BRRR., 
得 了 和 深度 神经 网 络 相 同 精 度 层次 的 分 类 性 能 ， 同 时 它 具 有 如 在 其 他 数据 集 (包括 私有 数据 集 ) E, Piotr 等 人 提出 一 
下 优点 : 可 更 有 效 的 进行 分 布 式 训练 ， 具 有 较 低 的 负载 和 容易 ” 种 分 类 病人 相关 的 同步 模式 的 方法 来 预测 疗 病 发 作 期 。 在 
部 署 在 资源 有 限 的 嵌入 式 平台 中 。 然 而 ， 一 个 层 数 非常 高 的 Freiburg 疗 病 数据 集 上 取得 了 71% 的 灵敏 度 和 零 误 报 率 。Frede 
经 网 络 总 是 面临 过 分 拟 合 和 梯度 消失 等 问题 中。 ric 等 人 呈 计 算 左右 颗 叶 与 顶 叶 的 脑 电 癫 病 同 步 ， 该 方法 取得 了 
针对 这 些 问题 ， 本 文 首先 提出 一 种 能 有 效 抑制 强 噪声 的 全 ”100% 的 特异 度 、54% 的 灵敏 度 和 81% 的 精度 。Fergus ANJE 
局 同步 特征 方法 ， 再 设计 一 种 跨 层 全 连接 神经 网 络 分 类 器 ， 对 ”出 一 种 新 的 可 以 对 不 同 患者 进行 辣 病 检测 的 通用 方法 , 达到 88% 
癫痫 发 作 状态 进行 分 类 。 在 CHB-MIT 公共 数据 集 上 的 实验 结 ”的 灵敏 度 和 88% 的 特异 度 。 
果 表 明 ， 与 大 多 数 已 有 方法 相 比 ， 本 文 所 提出 的 分 类 器 获得 较 在 国内 ， 基 于 机 器 学 习 的 瘦 病 自动 分 类 也 受到 广大 学 者 的 
优 的 分 类 性 能 。 由 于 分 类 器 不 仅 无 须 足 够 的 先 验 知识 针对 特定 。 ”密切 关注 。 国 内 在 该 领域 中 主要 针对 德国 伯 恩 大 学 疝 病 研究 中 
的 病人 调整 模型 参数 (去 掉 病 人 相关 的 噪声 、 特 定 频 率 带 和 眼 心 的 单 通 道 脑 电 数据 。 其 代表 算法 包括 小 波多 尺度 分 析 号 、 可 
动 等 等 ), 而 且 单一 的 时 间 窗 口 参数 设置 可 大 大 减少 由 于 参数 设 。 调 品 质 因子 小 波 变换 9、 自 回归 系数 "09 和 互信 息 0。 在 分 类 器 
置 不 当 而 引发 的 各 种 错误 ， 致 使 该 分 类 器 可 被 有 效 的 应 用 于 复 ”上 主要 以 极限 学 习 机 9、 支持 向 量 机 52 和 关联 向 量 机 0 为 主 。 
杂 的 科学 与 工程 应 用 中 。 其 主要 贡献 如 下 : 在 单 通道 EEG 数据 上 大 多 可 以 获得 99% 以 上 的 分 类 性 能 0*19， 

引 针 对 受到 强 噪声 干扰 的 多 维 脑 电 数据 ， 设 计 一 种 提取 同 甚至 是 100%07。 在 CHB-MIT 头皮 脑 电 图 数据 集 上 , 单 绍 杰 等 
步 演 化 模式 的 特征 提取 方法 (通道 间 聚 类 划分 互信 息 ), 相对 于 ”人 利用 LSTM 的 神经 网 络 模型 对 疾病 发 作 进 行 预测 ， 取 得 了 
传统 互信 息 计算 方法 ， 该 计算 方法 虽然 需要 额外 的 聚 类 过 程 计 ”98.5% 的 分 类 精度 和 零 误 警 的 结果 19。 


算 花 销 ( 秒 级 ), 但 其 考虑 通道 数据 本 身 的 差异 性 ,进而 更 加 精 脑 电 信号 是 一 种 随机 性 很 强 的 非 平 稳 信 号 ， 具 有 信 噪 比 非 
确 的 度量 双 通 道 的 互信 息 ; 常 低 的 特点 ， 现 有 方法 往往 通过 去 噪 和 去 伪 迹 等 预 处 理 手段 ， 


b) 在 缺乏 足够 的 先 验 知识 的 情况 下 ， 设 计 一 种 自 适 应 的 区 ”该 过 程 不 可 避免 的 需要 依赖 专家 知识 ， 极 大 地 妨碍 临床 和 科学 
分 具有 多 样 性 和 不 确定 性 同步 模式 的 分 类 器 〈 跨 层 神 经 网 络 )， ”上 的 应 用 。 与 现 有 的 工作 相 比 ， 本 文 则 在 寻找 高 噪声 鲁 棒 性 的 
其 在 闻 病 发 作 检测 中 表现 出 优异 性 能 ， 相 对 于 现 有 神经 网 络 方 同步 模式 计算 方法 ， 该 方法 能 更 加 精确 的 计算 互信 息 ， 同 时 设 
法 ， 跨 层 神 经 网 络 考虑 到 特征 矩阵 《互信 息 矩 阵 ) 区 别 于 图 像 ” ” 计 可 增强 跨 层 之 间 特 征 传播 的 跨 层 全 连接 神经 网 络 对 瘦 首 发 作 
/视频 数据 元 素 间 的 不 连续 性 , 去 掉 可 能 引起 结构 信息 损失 的 卷 ”期 自动 分 类 且 取 得 较 优 的 分 类 性 能 。 


积 层 和 池 化 层 ， 虽 然 增 加 了 跨 层 连 接 层 数 而 增加 时 间 复 杂 度 ， 2 方法 
但 可 避免 前 层 的 梯度 衰减 而 缓解 梯度 消失 问题 ， 同 时 增强 跨 层 
之 间 的 特征 传播 ; 2.1 方案 概述 
9 提出 的 方法 针对 整个 样本 空间 ， 且 无 须 足 够 的 先 验 知识 考虑 到 临床 应 用 的 时 效 性 和 在 线性 , 本文 避免 采用 常规 的 、 
进行 常规 脑 电 信号 处 理 过 程 中 的 去 噪 、 去 干扰 和 去 眼 电 过 程 (这 ”繁重 的 数据 预 处 理 任务 (去 噪 和 去 干扰 等 )。 已 有 方法 影响 临床 
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的 另外 一 个 障碍 是 极 大 的 依赖 于 足够 的 先 验 知识 ， 同 时 需 
额外 的 超 参数 〈 如 噪声 和 王 扰 的 频率 带 ， 空 间 过 滤 阔 值 
等 )。 图 1 显示 了 本 文 方法 的 总 体 结构 图 ， F 面 三 个 阶 
Bt: 同步 特征 提取 ， 基 于 跨 层 全 连接 神经 网 络 的 模式 分 类 和 对 
所 发 现 的 模式 进行 评估 。 系 统 首先 对 原始 数据 进行 等 窗口 划分 ; 
然后 计算 每 个 窗口 内 所 有 通道 间 的 聚 类 划分 互信 息 ， 并 组 织 成 
相关 特征 矩阵 ， 最 后 利用 训练 集训 练 分 类 器 的 连接 权 值 并 进行 
TUO A TE RAT 2S 


应 | 
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2.2 一 种 聚 类 划分 互信 息 同步 方法 

1) 互信 息 

互信 息 是 信息 论 中 的 基本 概念 ， 其 不 需要 任何 假设 或 先 验 
知识 就 可 度量 两 个 随机 变量 统计 相关 性 。 设 X 和 OY 是 两 个 离 


散 的 随机 变量 , 其 概率 密度 分 布 分 别 是 p(x) ，p(y) ,联合 概率 
密度 分 布 为 p(y) ， 则 随机 变量 X、Y WAS H(X). H(Y) 及 其 
Wen HOG Y)inT: 


H(X)--»p()log;p(x) a) 
H(Y)- 5 p)ytog;py) Q) 
H(X.Y)-- 之 pGw)log;p(v) Q3) 

则 互信 息 计算 如 下 : 
I(X.Y)- H(X)- H(Y)- H(X.Y) (4) 

2) 聚 类 划分 互信 息 
互信 息 与 数据 的 划分 密切 相关 , 为 更 加 精确 的 计算 互信 息 ， 


有 必要 寻求 有 效 地 非 监督 划分 策略 。 聚 类 算法 借助 度量 特征 间 
的 相似 性 ， 将 物理 或 抽象 对 象 的 集合 分 成 由 相似 的 对 象 组 成 的 
多 个 类 的 过 程 。 从 集合 论 的 角度 看 ， 聚 类 旨 在 解决 集合 的 划分 
问题 。 比 如 ， 基 于 距离 的 划分 、 基 于 层次 的 划分 、 基 于 密度 的 
划分 、 基 于 网 格 的 划分 以 及 基于 分 布 密度 的 划分 等 。 


特征 提取 
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数 分 计 ^ 
据 算 息 

\ 区 


系统 总 体 结构 图 


聚 类 划分 互信 息 可 被 用 来 度量 双 变 量 脑 电 数据 间 的 线性 和 
非 线性 同步 关系 。 相 比 于 现 有 计算 方法 ， 其 充分 考虑 了 序列 自 
身 的 差异 性 而 进行 合理 的 划分 ， 以 期 精确 计算 其 互信 息 。 图 2 
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(t: 互信 息 值 。 

1. 对 X 和 Y 按照 从 小 到 大 进行 排序 ; 
2. F] 
类 的 分 割 点 ; 假设 相 邻 的 两 个 聚 类 中 心 的 坐标 分 别 为 : ( 
相应 的 谷类 半径 分 别 为 及 入， 
Be 1o], 
——$ oO 


2 


KMeans 算法 计算 随机 变量 X 的 kK 个 聚 类 中 心 以 及 每 个 相 邻 聚 


x,,0) f1(x,,0) , 


其 划分 分 割 点 S, 的 坐标 为 


3. 同 理 ， 可 以 计算 随机 变量 Y 的 K 个 聚 类 中 心 以 及 每 个 相 邻 聚 类 的 分 


dap S 


下 JA y 


g" po Set], 
4 2 j 


LAS 


4. WS, 对 X 进 行 划分 Dx ， o X 计算 每 个 划分 的 点 
概率 PB ， 计 算 神经 信号 数据 X ind Hx ; 


5. 同 理 以 5S, 对 进行 划分 Dy ， 对 Y 计算 每 个 划分 的 点 的 个 数 Ny 及 其 


概率 P, 计算 神经 信号 数据 Y nf edi Hy ; 


的 个 数 Nx 及 其 


6. 计算 X 和 YY 同时 落 入 划分 Dx 和 Dy 的 个 数 Nx.y 及 其 概率 Py y ; 


同时 计算 X 和 Y 的 联合 信息 焙 Hx.y 
7. 计算 X 和 YY 的 互信 息 并 返回 。 


r 


单 窗口 内 的 互信 息 相 关 和 矩阵 


计算 通道 X 的 聚 类 中 心 Cro HEMER A TG EUH. 


计算 通道 Y 的 聚 类 中 心 Cro XEITETERCELG BUR ET. 


AOGUY BUCH 及 zs， 进而 计算 互信 息 MI(XY) 


J 


- 算 窗口 内 所 有 通道 之 间 的 互信 息 ， 以 相关 和 矩阵 进行 组 织 


a 


图 2 "f$ 


2.3 ” 聚 类 划分 互信 息 相 关 和 矩阵 


内 聚 类 互信 息 相关 和 矩阵 计算 过 程 


为 量化 多 变量 EEG 的 全 局 同步 ， 本 文 将 所 


通道 间 MI 组 


织 成 一 个 相关 和 矩阵 ， 即 CMMI。 其 定义 如 下 : 


MI, 
t ML, 


ML, 
ML, 


MI, 
ML, 


QU MI,, 

Hop, MIL 表示 通道 i 与 j 之 间 的 同步 强度 。 

2.4” 跨 层 全 连接 神经 网 络 分 类 器 
分 类 器 被 用 来 所 有 时 间 窗 


MI 


(5) 


内 的 CMMIs 进行 分 类 ， 以 对 


癫 首发 作 期 进行 识别 。 本 节 先 讨论 分 类 器 的 设计 原则 ， 再 给 出 


分 类 器 模型 的 实现 细节 o 
2.4.1 跨 层 全 连接 神经 网 络 设 计 原 则 


本 文 分 类 器 的 设计 目标 是 用 尽量 少 的 隐藏 层 


显示 了 单 窗 口内 聚 类 互信 息 相关 逢 阵 计 算 过 程 。 算 法 1 显示 了 
计算 两 个 随机 变量 之 间 的 聚 类 划分 互信 息 。 

算法 1: 计算 两 个 随机 变量 之 间 的 聚 类 划分 互信 息 

输入 : 随机 变量 X， 随 机 变量 Y， 育 类 中 心 个 数 K。 


神经 网 络 同等 级 别 的 分 类 性 能 ， 从 而 节省 大 量 的 


而 获取 和 深 
训练 时 间 。 


E KR 


3 显示 了 跨 层 全 连接 神经 网 络 的 主要 结构 ， 


其 开始 于 一 


Dropout 层 ， 


连接 层 都 与 所 有 后 


3p 
接 下 来 是 四 层 前 向 两 两 相连 的 密集 层 块 (前 面 的 全 
罩 的 全 连接 层 相连 ), 最 后 是 一 个 ReLU 的 激 
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录用 入 Xa, 
活 输出 层 。 其 主要 设计 原则 如 下 : 接 的 方式 连接 而 成 。 假 设 有 LL 层 FC 层 ， 除 了 相 邻 的 两 层 之 间 

a) Dropout. Dropout 被 用 来 区 服 过 分 拟 合 的 重要 手段 ， 殿 都 有 前 向 连接 之 外 ， 所 有 前 面 的 层 都 连接 到 后 面 所 有 层 ， 使 得 
主要 思想 是 随机 丢失 掉 某 些 神经 元 。Srivastava 给 出 了 Dropout -— su L(L41 m 
Pup i Qi LL E 神经 网 络 总 的 连接 个 数 为 TTD 层 。 该 网 络 结构 借鉴 
实验 进行 参数 调 优 后 ， 设 置 输入 层 的 Dropout 率 为 20%， 而 隐 ^ Huang 提出 的 DenseNet20， 文 中 指出 密集 层 具有 缓解 梯度 消失 
含 层 没 有 设置 Dropout。 问题 、 增 强 特征 传播 、 更 有 利于 特征 重用 以 及 具有 更 少 的 模型 

b) 无 须 卷 积 层 和 池 化 层 。 虽然 卷 积 层 和 池 化 层 在 减少 模型 参数 等 优点 。 与 其 主要 不 同 之 处 在 于 : a) 由 于 同步 模式 的 多 样 
参数 上 取得 了 极 大 成 功 , 但 其 不 适合 处 理 EEG 模式 。 因为 EEG 性 而 去 掉 了 卷 积 层 和 池 化 层 ， 因 为 在 不 同 的 闻 病 发 作 期 病人 ， 
模式 往往 呈现 出 多 样式 和 非 平稳 性 等 特点 ， 卷 积 和 池 化 操作 不 其 同步 模式 增强 或 者 减弱 的 通道 是 变化 的 ， 腾 断 的 卷 积 或 者 池 
可 避免 的 会 导致 信息 丢失 而 降低 分 类 性 能 。 化 操作 极 有 可 能 会 损失 这 种 特征 的 变化 而 致使 最 终 分 类 性 能 降 

c) 拼接 层 。 拼 接 层 接受 来 自 所 有 前 层 的 连接 ,按照 层 的 前 K: bo 设置 拼接 层 以 接受 并 拼接 所 有 前 层 的 输出 连接 , 其 目的 
后 顺序 进行 拼接 ， 然 后 一 一 映射 到 接 下 来 的 全 连接 层 ， 其 连接 ”是 除了 可 以 避免 前 层 的 梯度 衰减 而 缓解 梯度 消失 问题 ， 还 可 以 
权 值 固定 为 1， 偏 置 固定 为 0 兽 强 跨 层 之 间 的 特征 传播 。 

d) 密集 层 块 。 密 集 层 块 由 块 内 所 有 FC 层 之 间 以 前 向 全 连 

| — ii (ED 
未 发 作 其 
输入 层 Dropout FC FC Merge FC  Mege FC 
23*23 20% = | 
图 3 分 类 器 设计 图 

2.4.2 跨 层 全 连接 神经 网 络 设计 结构 分 类 器 的 训练 性 能 通过 5 折 交 叉 验 证 算法 进行 评估 “训练 集 和 


分 类 器 详细 设计 如 下 : a) 优化 器 ,随机 批 〈 批 次 500 梯度 ”验证 集 )， 而 最 终 的 分 类 器 的 性 能 由 测试 集 进行 评估 。 
下 降 算法 ; b) 学 习 率 设置 为 0.01; c) 目标 函数 为 均 方 误差 ; a) 模 型 概要 。 表 1 总 结 了 本 文 分 类 器 的 模型 参数 〈 表 中 的 
d) 激 活 函数 为 ReLU 函数 。 跨 层 全 连接 网 络 输入 所 有 的 CMMIs， 最 后 一 列 显示 了 当前 层 的 参数 数目 )。 虽 然 分 类 器 的 总 参数 数目 
其 训练 过 程 包括 : (49702) 少 于 当前 主流 的 深度 学 习 框架 , 但 是 却 获得 了 较 优 的 

a) 前 馈 网 络 通过 连接 拓扑 结构 和 激活 函数 获得 当前 层 Wd 分 类 性 能 
出 ,假设 当前 层 是 LQ) 层 , 除了 有 来 自 LG-D) 层 的 输入 外 ,还 ——€ 
来 自 L(i-1) 之 前 所 有 全 连接 层 的 输入 连接 ， 其 输出 表达 式 如 下 : E GERD 输出 层 输出 格式 ”模型 参数 

E M (Zau ae 70) ©) Dropout! (Dropout) FC1 (全 连接 层 ) [None 529] 0 
FCI (全 连接 层 ) — FC2 (全 连接 层 ) 31800 
其 中 :6 是 激活 函数 ，@ 是 连接 权 值 ，b 是 偏 移 量 。 FC1 (全 连接 层 ) FC3 (全 连接 层 ) 15900 

b) f CUORE SRZEMOT SEUOK ; FC1 (全 连接 层 ) FC4 (全 连接 层 ) 530 

c) 反馈 网 络 依据 拓扑 结构 运用 BP 算法 计算 输出 与 目标 之 FC2 (全 连接 层 ) FC3 (全 连接 层 ) [None 60] 1380 
间 的 残 差 ， 基 于 随机 梯度 下 降 调节 模型 连接 权重 进行 优化 ; FC2 (全 连接 层 ) FC4 (全 连接 层 ) 6l 
于 从 输出 到 当前 神经 元 连接 路 径 的 唯一 性 ， 反 向 传播 算法 依据 FC3 (全 连接 层 ) FC4 (全 连接 层 ) [None 30] 31 
链 式 法 则 一 层 一 层 往 前 计算 下 降 的 梯度 ; FC4 (全 连接 层 ) ”输出 (激活 函数 ) [None 1] 0 

d) 训练 后 得 到 优化 的 分 类 模型 , 测试 数据 放 入 模型 后 利用 
已 学 习 参 数 进行 学 习 特 征 ， 最 后 根据 各 个 特征 进行 癫 病 发 作 期 dl 显示 了 当前 层 与 下 一 个 连接 层 〈 输 出 层 ) 的 输出 格式 
分 类 。 以 及 连接 参数 个 数 。 密 集 层 块 包含 两 个 拼接 层 ， 第 一 个 拼接 层 
2.4.3 分 类 器 实现 细节 是 在 第 三 FC 层 之 前 ， 其 拼接 来 自 第 一 FC 层 和 第 二 FC 层 的 输 

本 节 将 描述 分 类 器 的 实现 细节 。 其 主要 过 程 包括 ， 首 先 用 出 ; 第 二 个 拼接 层 在 第 四 FC 层 之 前 , 拼接 来 自前 面 三 层 FC 层 
随机 种 子 为 7 的 随机 数 对 整个 样本 空间 进行 重新 洗 牌 ， 将 数据 ”的 输出 。 

分 成 训练 集 、 验 证 集 和 测试 集 ， 其 分 别 占 64%、16% 和 20%. b) 训 练 阶段 。 在 每 个 训练 周期 (epoch)，5 折 交 叉 验 证 算法 
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被 用 来 评估 训练 性 能 。 采 用 小 批量 〈 批 大 小 为 50) 动量 (0.9) 
梯度 下 降 法 来 对 采用 的 算法 进行 训练 09。 甚 正则 化 的 权重 衰减 
值 为 0.0001， 输 入 层 的 dropout 率 为 0.2， 设 置 很 小 的 权重 衰减 
值 有 助 于 减少 训练 误差 ， 其 反 向 更 新 规则 如 下 2 


L 
人 
Oo ` 


O4 


< c, F Visi (7) 


PUES = T oL 
其 中 :i 是 迭代 次 数 ，v 是 动量 变量 ，。 是 学 习 率 ， PE 


Tr eC T Xe BEBUB. o 在 D; 批 上 的 仿 
的 优化 方向 。 


导数 , 其 显示 了 当前 批 次 
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假设 神经 网 络 的 层 数 为 直 ， 每 一 层 的 神经 元 数 为 U， 层 与 
层 之 间 的 连接 个 数 为 LIL+1X2 。 分 类 器 的 时 间 复 杂 度 为 
O(UL(L-1)/2). 
3.1.1 线 下 训练 过 程 
线 下 训练 过 程 包括 计算 所 有 聚 类 划分 互信 息 相 关 和 矩阵 
(CMMI) 和 训练 神经 网 络 模型 。 在 时 间 窗 口 为 2048 F, RX 
操作 可 以 重用 ，23 个 通道 的 聚 类 操作 只 需要 23 次 聚 类 操作 ， 
10 个 线程 同时 计算 聚 类 , 所 有 通道 总 共聚 类 操作 的 时 间 大 约 为 
10s, 276 次 互信 息 计算 的 时 间 大 约 是 40 s。 在 JDK1.8 中 计算 
一 个 CMMI 所 花费 的 时 间 大 约 为 50 s。 计 算 所 有 的 1406 个 
CMMI (753 ARRA E. 753 NARO 所 花费 的 时 间 大 约 


9 测试 阶段 。 在 测试 阶段 ， 给 定 一 个 已 经 训练 好 的 跨 层 全 
连接 神经 网 络 和 EEG 原始 数据 ， 以 如 下 方式 进行 分 类 : 首先 ， 
EEG 数据 被 划分 为 相同 大 小 的 数据 窗口 (本 文采 用 的 是 2048)， 
同时 每 个 窗口 的 CMMI 特征 和 矩阵 被 计算 出 来 , 最 后 训练 好 的 神 
经 网 络 模型 对 所 有 CMMI 特征 和 矩阵 进行 分 类 。 整个 过 程 无 须 医 
生 和 专家 的 介入 ， 自 动 化 完成 ， 在 临床 应 用 中 可 以 大 大 节省 人 
力 、 物 力 和 财力 。 

dj) 避免 过 分 拟 合 。 本 文 使 用 提前 终止 和 “Dropout” 来 避免 
模型 的 过 分 拟 合 。 提 前 终止 策略 利用 迭代 截断 法 在 训练 收敛 到 
训练 集合 之 前 就 停止 迭代 ， 从 而 避免 过 分 拟 合 ， 本 文 监控 训练 
精度 不 再 提升 时 提前 终止 训练 (初始 epoch 设置 为 300， 而 提 
前 终止 于 49)。Dropout 是 深度 神经 网 络 中 防止 过 分 拟 合 提 高 效 


需要 19.5 h。 第 二 步 在 1 分 钟 内 输出 模型 。 
3.1.2 线 上 秒 级 实时 分 类 过 程 
线 上 预测 过 程 包括 计算 一 个 CMMI 需要 50s; 在 0.01 s 内 
加 载 模型 文件 并 预测 瘦 病 的 状态 。 
3.2 ”数据 描述 
本 实验 在 CHB-MIT 头皮 脑 电 数据 库 上 进行 评估 ， 数 据 集 
采集 自 22 名 由 器 质 性 病变 引起 的 严重 预 冯 病 患者 C5 名 男性 ， 
年 龄 段 3-22; 17 名 女性 ， 年 龄 段 1.5-19)， 数 据 通过 23 个 不 同 
的 通道 同时 采集 (FP1-F7, F7-T7, T7-P7, P7-O1, FP1-F3, F3-C3, 
C3-P3, P3-O1, FZ-CZ, CZ-PZ, FP2-F4, F4-C4, C4-P4, P4-O2, FP2- 
F8,F8-T8, T8-P8, P8-O2, P7-T7, T7-FT9, FT9-FT10, FT10-T8, T8- 
P8)。 通 过 连接 在 〈 受 试 者 ) 头皮 表面 的 19 个 电极 与 1 个 接地 
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时 减弱 神经 元 节点 间 的 联合 适应 性 ， 增 强 泛 化 能 力 以 避免 过 分 
JU eU. 


3. SEDUATTT BIS ECTS R14] 25 


为 评估 所 提出 方法 的 性 能 ， 本 文 将 对 麻 省 理工 的 公共 授权 
f 8 i5 Jy Jd d Hm Xx Js f CHB-MIT(http://physionet.org/ 
physiobank/database/chbmit[22]) 33 £1 Ri Jf Az E 3E TT 4138 
34 计算 复杂 度 

本 文 所 有 实验 的 测试 环境 为 英特尔 这 处 理 器 (3.33 GHz). 
24Gb 运行 内 存 和 64 位 Windows7 个 人 电脑 。 计 算 过 程 包括 线 
下 训练 过 程 和 线 上 预测 分 类 过 程 。 

聚 类 划分 互信 息 的 计算 复杂 度 分 为 两 个 阶段 ， 其 一 是 
KMeans 聚 类 算法 ， 对 于 K 个 划分 的 聚 类 算法 ， 其 一 次 聚 类 划 
分 的 计算 复杂 度 为 O(KNI) ，N 表示 样本 个 数 ，I 为 迭代 次 数 ; 
其 二 是 互信 息 的 计算 ， 其 计算 复杂 度 为 : 计算 互信 息 时 的 划分 
个 数 和 聚 类 个 数 相 同 ， 为 K， 假 设 双 通道 之 间 对 应 的 划分 中 包 
含 的 样本 点 个 数 为 N， 只 需要 遍历 一 次 划分 内 的 数据 就 可 以 计 
FAMAS WARRT EAE ERRAR EAN ON), KE, F. 
信息 的 计算 复杂 度 为 O( KN )。 一 次 聚 类 划分 互信 息 的 计算 复 
杂 度 为 O(KNI1)+O(KN) 。 假 设 通道 数 为 C， 总 共聚 类 计算 个 
数 为 C， 而 互信 息 的 计算 个 数 为 CCC+1)/2。 综 上 所 述 ， 同 步 特 
征 和 矩阵 的 计算 复杂 度 为 O(CKN(I+C))。 


电极 以 频率 256Hz 采集 数据 ， 大 多 数 数据 文件 中 包括 多 次 癫 病 
发 作 。 

为 避免 样本 不 平衡 的 问题 ， 利 用 马尔 可 夫 链 蒙特 卡 罗 
(MCMC) 方法 采样 以 平衡 辣 病 发 作 及 癫痫 间 吹 期 的 样本 。 
体 方法 如 下 : a) 对 于 每 个 间 病 发 作 期 ， 其 发 作 总 时 间 为 
该 发 作 期 的 CMMI 个 X 
count (seizure)=S(seizure)/S(window) ， 其 中 S(window) 为 时 


HAO; b) 对 疗 病 发 作 期 前 期 进行 MCMC 采样 ， 采 样 个 数 为 


S(seizure) , 


count ( previous) = E xS(seizure) / S(window) ; c) XHK A E Js 


MCMC 采样 ， X OR 
count(post) = count (seizure) — count (previous) , 
3.8 分 类 性 能 评估 
为 评估 分 类 器 的 性 能 ,本文 拟 采 用 10 次 评估 过 程 , 在 每 一 

次 迭代 评估 中 ， 5 折 交 叉 验证 方法 被 采用 ， 所 有 的 输入 特征 
CMMIs 被 随机 并 打 散 Cshuffle) 划分 为 5 部 分 ， 其 中 4 个 部 分 
被 用 作 训 练 数据 ， 剩 余 的 一 个 部 分 作为 测试 数据 ， 最 终 的 结果 
是 所 有 10 次 迭代 所 产生 的 测试 集 的 平均 分 类 结果 。 为 量化 分 
类 性 能 , 将 利用 敏感 度 (SEN), 特异 度 CSPE), EME CACC) 
报告 分 类 器 的 分 类 性 能 。 

SEN=7TP/(TP+FN) (7) 

SPE =TN / (TN + FP) (8) 
ACC z (TP +TN)/(TP+ FN +TN + FP) (9) 


个 数 为 


XE íT 
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其 中 :SEN 


Pre =TP/(TP+ FP) (10) 
GM = JSEN*SPE Q1) 
F. 1-Score 2 2x(Prex SEN)/(Pre- SEN) (12) 


和 SPE 4) lA VEUIDROTR A E 3-55 AE RA H AE 
率 , ACC 表示 分 类 器 的 平均 性 能 .Pre 定义 了 所 有 正确 分 类 中 ， 
期 的 百分比 。 以 上 指标 不 能 度量 分 类 器 的 


FEM OUR A TE 


FHE, p 


Jan 100 个 样本 ， 如 果 99 个 正 类 和 1 个 负 类 ，99% 的 


高 性 能 可 以 被 获得 即便 所 有 的 样 


本 都 被 分 类 为 正 类 。Gm 和 


Fl Score 综合 考虑 了 不 同 | 
性 进行 评估 。 时 间 窗 


H 
HE 


能 指标 而 对 分 类 器 的 性 能 指标 的 平 
a a 


N mE 


4 ER] 


H 


大 小 的 增加 ( 开 


始 于 512)， 分 类 器 性 能 的 变化 趋势 呈现 上 天 


趋势 ， 


能 几乎 都 达到 了 最 低 点 。 


个 例外 是 在 时 间 窗 口 为 1000 样 


本 点 的 时 候 , 所 有 的 性 
本 点 的 时 候 , 本 文 的 性 能 


而 在 2048 FE 


达到 最 高 点 ， 也 就 是 本 文 报告 的 分 类 性 能 : 
精确 度 , [98.27% + 


度 。 


性 能 (%) 


[98.19% + 0.24%] 
0.51%] 敏 感度 和 [98.11% + 0.36%] 特 异 


不 同窗 口 下 的 分 类 器 性 能 比较 
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图 4 不 同时 间 窗 口 大 小 下 的 分 类 器 的 性 能 


图 5 显示 了 2048 时 间 窗 口 下 的 
训练 损失 分 别 表示 训练 阶段 的 精度 和 损失 ， 而 验证 精度 和 验证 


王 凤 琴 ， 等 
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作 特 征 


被 广泛 | 


来 度量 分 类 器 的 性 能 。 它 是 


线 (ROC 曲线 ) 下 的 面积 (简称 AUC) 


反映 敏感 性 和 特异 性 连续 


而 计算 出 


& X xm 


高 。 在 ROC 曲线 上 ， 


量 的 综合 指标 , 它 通 过 将 连续 变量 设 定 出 多 个 不 同 的 临界 值 ， 
一 系列 敏感 性 和 
异性 ) 为 横 坐 标 绘制 成 曲 


特异 性 ， 再 以 敏感 性 为 纵 坐 标 、(1- 
线 ， 曲 线 下 面积 越 大 ， 诊 断 准 确 性 
最 靠近 坐标 图 左上 方 的 点 为 敏感 性 和 特 


E 


性 均 较 高 的 临界 值 [23]。 图 


6 显示 了 本 文 交叉 验证 的 分 类 性 能 


(5 折 交 叉 验 证 )。 


P ROC 曲线 (平均 面积 为 0.99) 显示 了 


分 类 闯 病 发 作 与 非 发 作 状 态 的 优越 性 能 。 


受 试 者 工作 特征 曲线 


00 02 


Luck 线 可 以 


线 位 于 Luck RUF, 可 以 认为 模 


型 。 


的 比较 。 
验 知识 ， 
等 。 在 公共 数据 集 


图 6 5 折 交 叉 验 证 模型 的 受 试 者 


区 分 模型 是 否 有 效 ， 


表 2 给 出 了 本 文 方法 与 当前 最 
先 验 知识 列表 示 是 否 提 

诸如 利用 专家 的 先 验 知 识 过 滤 与 疗 病 无 关 的 频率 信息 
CHB-MIT E, 在 缺乏 先 验 知识 (无须 去 品 ， 
针对 整个 样本 空 


04 06 
假 阳性 概率 


作 特 征 曲线 


般 来 说 ， 如 果 ROC H 
型 是 无 效 模型 , 反之 为 有 效 模 


有 代表 性 的 智能 分 类 算法 
出 的 方法 强烈 依赖 于 专家 的 先 


xs 间 而 不 是 针对 单个 样 


本 ) 的 


线 ， 训 练 精度 、 


次 学 习 


情况 下 ， 在 所 有 


性 能 指标 上 都 取得 了 相对 较 高 的 性 


EE。 这 样 做 


mr 


的 目的 是 为 了 使 得 模型 具 


损失 分 别 表示 验证 
训练 阶段 未 出 现 明 显 的 过 


s 


从 图 中 可 以 看 出 ， 模 型 
训练 精度 和 验证 精 


阶段 的 精度 和 损失 。 
ISAE, HAX A) 


度 最 终 几 乎 同时 达到 较 高 ，(2) 没有 明显 的 差异 在 两 个 精度 
线 之 间 ， 虽 然 验证 精度 在 一 定 程度 上 有 一 定 的 震荡 ， 但 是 总 的 
来 说 并 未 明显 的 脱离 训练 精度 曲线 。 进 一 步 的 ， 本 文 报告 的 高 


性 能 〈 低 标准 


差 ) 表明 本 文 分 类 器 未 出 现 过 分 拟 合 。 


验证 精度 


图 5 学 习 曲 线 图 


新 来 的 病人 重新 调整 参数 而 丧失 临 


更 加 健壮 和 泛 化 的 能 力 ， 而 无 须 对 
床 应 用 意义 。 


表 2 


型 发 作 期 探测 方法 性 能 比较 


作者 /年 份 


分 类 器 


敏感 度 /% 特异 度 /% 精度 /% 先 验 知识 


Fergus 2016[13] 


Nasehi 2013[24] 


Morteza 2016[11] MLP, Bayesian 


Lorena 2016[10] 


单 绍 杰 [18] 


本 文 方法 BRZE 


IPSONN 98 


LDA,NN 


LSTM 


k-NN 88 88 93 M 


86.53 97.27 86.56 


97.5 


98.73 


Y 

Y 

99.9 - Y 
98.95 Y 

N 


接 网 络 — 98.27 


98.19 98.11 


3.4 讨论 


大 多 数 已 
于 专家 的 先 验 知识 


导致 较 弱 的 模型 泛 
样本 , 在 此 基础 上 建立 


了 癫 痢 发 作 期 分 类 器 都 基于 病人 相关 oa 和 强 依赖 
misag， 其 缺陷 是 训练 和 测试 的 样本 来 
于 同一 个 病人 ,或 者 针对 不 同 的 病人 设 定 特 定 的 特征 提取 规则 ， 
比 能 力 。 作 为 对 照 ， 本 研究 采用 所 有 患者 的 


个 通 | 


JH] EEG 分 类 模型 ， 以 准确 地 探 


录用 稿 
测 不 同 受 试 者 的 疗 痢 发 作 状态 。 

传统 分 类 器 大 多 依赖 脑 电信 号 的 时 间 、 频 率 和 空间 分 析 哲 
而 不 同 病 人 的 频率 带 常 常 具有 比较 大 的 差异 性 ， 而 识别 一 组 合 


适 的 频率 带 本 身 己 经 成 为 一 个 极 具 挑战 的 研究 方向 ， 致 使 对 不 
同 病 人 提取 不 同 频率 带 成 分 进行 分 类 异常 困难 。 已 有 方法 针对 
这 一 问题 ， 例 如 基于 贝 叶 斯 框架 提取 频率 带 成 分 3。 
另外 ， 提 取 合 适 的 频率 带 需 要 复杂 的 算法 处 理 和 大 量 的 迭 
代 周 期 ， 同 时 时 间 窗 口 的 长 度 必 须 足 够 长 ， 以 避免 丢失 有 用 的 
频率 信息 的 风险 。 例 如 ，Piotr 等 人 不 得 不 用 1 到 5 分 钟 的 有 

(12-60 WO 来 获取 合适 的 频率 带 信息 ， 但 是 所 需 的 同步 
言 息 提取 仅仅 需要 5 s 的 时 间 窗 口 脑 电信 息 叫 。 
如 上 所 述 ， 现 有 的 分 类 器 需要 足够 的 先 验 知 识 。 而 本 文 月 
提出 的 方法 无 须 所 有 先 验 知识 。 此 外 ， 本 文 的 方法 无 须 现 有 方 
法 无 法 跨越 的 预 处 理 ( 去 噪 和 去 伪 迹 ) 阶段 。 


E 


一 


4 ”结束 语 


在 强 噪声 背景 下 ， 发 现 多 变量 脑 电 信号 的 同 
先 验 知识 不 足 的 情况 下 准确 地 对 其 分 类 是 一 个 
能 力 可 以 极 大 地 辅助 预 冯 发 作 期 的 探测 与 诊断 。 

设计 一 种 轻 量 级 的 跨 层 全 连接 网 络 自 适应 地 刻画 疗 痛 发 作 
期 的 非 平稳 模式 ， 并 对 其 有 效 分 类 。 区 别 于 以 往 的 分 类 器 ， 本 
文 设计 一 种 拼接 层 接 受 来 自 所 有 之 前 的 全 连接 层 的 输出 ， 
映射 到 下 一 层 ， 以 此 构成 前 馈 全 连接 块 。 该 设计 可 以 减轻 梯度 
消失 问题 和 增强 网 络 连接 参数 的 传输 。 

在 公共 数据 集 CHB-MIT 头皮 脑 电 数 据 上 的 实验 结果 表明 ， 
现 有 方法 在 分 类 性 能 有 一 定 的 改进 , 获得 了 [98.19% + 0.24%] 


步 模式 ， 并 在 
E 要 问题 。 这 种 


个 


lir 


精确 度 ,[98.27% + 0.51%] 敏 感度 和 [98.11% + 0.36%] 特 异 度 。 


小 的 标准 差 表 明 本 文 分 类 器 的 稳定 性 。 鉴 于 时 间 窗 口 与 分 类 性 
能 的 强 相 关 性 ， 有 理由 相信 可 以 通过 深度 强化 学 习 技 术 自 适应 
寻求 最 优化 的 时 间 窗 口 ， 使 得 分 类 性 能 进一步 提高 ， 其 超出 了 


本 文 的 范围 ， 而 将 作为 本 文 的 未 来 工作 。 相 比 之 下 ， 本 文 方法 
E 须 去 噪 而 获得 比较 高 的 分 类 性 能 。 此 外 ， 该 方法 仅仅 需要 一 
个 超 参数 ， 有 效 避 免 了 已 有 方法 由 于 过 度 的 参数 设置 而 出 现 的 
潜在 错误 。 在 先 验 知识 不 足 情况 下 ， 本 文 方法 极 具 对 暗含 在 原 
台 脑 电信 号 的 复杂 同步 模式 进行 有 效 分 类 的 潜力 。 
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